近年来,视听联合学习的动作识别获得了一定关注。无论在视频(视觉模态)还是音频(听觉模态)中,动作发生是瞬时的,往往在动作发生时间段内的信息才能够显著地表达动作类别。如何更好地利用视听模态的关键帧携带的显著表达动作信息,是视听动作识别待解决的问题之一。针对该问题,提出关键帧筛选网络KFIA-S,通过基于全连接层的线性时间注意力机制赋予每个时刻视听信息不同权重,从而筛选益于视频分类的视听特征,减少重复冗余信息,抑制背景干扰信息,提升动作识别精度。研究了不同强度的时间注意力对动作识别的影响。在ActivityNet数据集上的实验表明,KFIA-S网络达到了最先进的识别精度,证明了所提方法的有效性。